12-3 丶@Y

資料濃縮（data condensing）的概念恰恰與資料編修（data editing）相反，由於在實際的範例中資料的點數經常十分龐大，而在眾多資料中，有不少資料的特徵均十分類似，因此我們希望透過一種自動化的機制，將資料中十分雷同的資料點移除，甚至希望將在分類上重要性較低的資料點移除，謂之資料濃縮。圖6-2.a：資料濃縮如圖6-2.a所示，所謂「在分類上重要性較低的點」指的是遠離分類邊界的資料點。因為我們只要知道每群資料的分佈範圍，便可以輕易地將該群分界線畫出，因此我們希望透過資料濃縮只留下每群資料的「殼」，藉以達到資料減量的目的。整個資料濃縮的流程可大致分成下面三個步驟： 1. 隨機選取任一點A，並尋找與A最接近的一點B。 2. 假如A與B屬於不同類，則重複步驟一。 3. 假如A與B屬於同一類，則移除A、B中任意一點。在步驟三中，我們可以加入些許經驗法則來辨別A、B間何者重要性較低。在移除A或B之間，我們先求A與不同類資料點中最接近的一點間的距離為Dist（A）；求B與不同類資料點中最接近的一點間的距離為Dist（B）。假如Dist（A）< Dist（B)，表示A離分類邊界較近，因此A的重要性較大；反之，Dist（A）> Dist（B)，表示B離分類邊界較近，因此B的重要性較大。特別值得一提的是，在進行資料濃縮之前，我們通常都會先進行資料編修，先將過份靠近其他類的雜訊點移除，如此遺留下來的分類邊界才會更為鮮明。下面是一個簡單的資料濃縮範例：圖6-2.b：資料濃縮過程1（步驟一）圖6-2.c：資料濃縮過程2 圖6-2.d：資料濃縮結果
Data Clustering and Pattern Recognition (資料分群與樣式辨認)